Создавайте универсальный аудиоконтент с помощью генерации речи.
Подайте заявку чтобы публиковать обновления, новости и отвечать пользователям.
Войдите в аккаунт чтобы подать заявку
ВойтиVoicebox от Meta — это передовая генеративная модель ИИ для речи, способная выполнять широкий спектр аудиозадач с помощью единой модели. Её основная ценность заключается в создании высококачественной, естественно звучащей речи на нескольких языках и в различных стилях, что позволяет генерировать, редактировать и синтезировать аудиоконтент без необходимости обширных обучающих данных для каждой конкретной задачи. Эта универсальность делает Voicebox мощным инструментом для автоматизации и улучшения рабочих процессов в аудиопроизводстве.
Ключевые возможности: Voicebox может генерировать речь на шести языках из текста, редактировать аудио, бесшовно заменяя ошибочно произнесённые слова или применяя шумоподавление, а также выполнять кросс-лингвистический перенос стиля — например, читать английский текст с интонацией и манерой говорящего на французском, чей голос был предоставлен в образце. Модель также отлично справляется с созданием разнообразных речевых выборок из одного промпта, что полезно для генерации нескольких версий голосового сопровождения или диалога.
Уникальность Voicebox заключается в его неавторегрессивной архитектуре на основе flow matching, которая позволяет генерировать речь значительно быстрее, чем многие последовательные модели, без потери качества. В отличие от некоторых конкурентов, настроенных на узкие задачи, Voicebox — это модель общего назначения, обученная на огромном и разнообразном наборе данных публичной речи, что обеспечивает выполнение задач zero-shot, на которых она не обучалась явно. Она разработана как фундаментальная исследовательская модель с потенциалом для будущей интеграции в продукты Meta и внешние API, хотя на данный момент не доступна в виде публичного коммерческого API.
Идеально подходит для исследователей и разработчиков в области ИИ и речевых технологий, изучающих генеративные модели, а также для медиапродюсеров, подкастеров и создателей контента, которым нужны эффективные инструменты для дубляжа, аудиомонтажа и создания многоязычного голосового контента. Конкретные варианты использования включают генерацию синтетических данных для обучения других ИИ-систем, создание доступных аудиоверсий текстов и поддержание единых голосов персонажей в играх или анимации на разных языках.
Как исследовательский релиз, основная модель в настоящее время бесплатна для некоммерческих исследовательских целей, официальная коммерческая цена не объявлена. Будущее развёртывание может следовать модели freemium, но текущий доступ ограничен исследовательским сообществом по некоммерческой лицензии.